我们介绍了软件Robustar的初步发布,该版本旨在通过数据驱动的视角提高视觉分类机器学习模型的鲁棒性。基于最近的理解,即缺乏机器学习模型的鲁棒性是该模型学习虚假特征的趋势,我们旨在通过在训练前从数据中删除数据的杂种特征来从数据角度解决此问题。特别是,我们介绍了一种软件,可以通过允许用户注释图像像素级别的虚假功能来帮助用户更好地为训练图像分类模型准备数据。为了促进这一过程,我们的软件还利用了最近的进步来帮助识别值得关注的潜在图像和像素,并通过新注释的数据继续培训。我们的软件托管在GitHub存储库https://github.com/haohanwang/robustar。
translated by 谷歌翻译
视觉接地是一项旨在根据自然语言表达方式定位目标对象的任务。作为一项多模式任务,文本和视觉输入之间的特征相互作用至关重要。但是,先前的解决方案主要在将它们融合在一起之前独立处理每种模式,在提取视觉功能时,这并不能充分利用相关的文本信息。为了更好地利用视觉接地中的文本视觉关系,我们提出了一个查询条件的卷积模块(QCM),该模块(QCM)通过将查询信息纳入卷积内核的产生中来提取查询感知的视觉特征。借助我们提出的QCM,下游融合模块接收到更具歧视性的视觉特征,并专注于表达式中描述的所需对象,从而导致更准确的预测。在三个流行的视觉接地数据集上进行的广泛实验表明,我们的方法可以达到最新的性能。此外,当直接用于预测而无需进一步的多模式融合时,查询感知的视觉特征足以实现与最新方法可比的性能。
translated by 谷歌翻译
随着深度学习模型的速度较大,需要进行大型型号培训的系统级解决方案。我们展示了Amazon Sagemaker模型并行性,这是一个与Pytorch集成的软件库,并且可以使用模型并行性和其他内存节省功能轻松培训大型模型。与现有解决方案相比,Sagemaker库的实现更通用,灵活,因为它可以自动分区和运行具有最小代码的任意模型架构上的管道并行性,并且还为张量并行度提供一般和可扩展的框架,它支持更广泛的用例,并且可以轻松应用于新培训脚本的模块化。该库还将本机Pytorch用户体验保留到更大的程度,支持模块重复使用和动态图形,同时让用户完全控制训练步骤的细节。我们评估GPT-3,Roberta,BERT和神经协作过滤的性能,并表现出对现有解决方案的竞争性能。
translated by 谷歌翻译
Mix-up training approaches have proven to be effective in improving the generalization ability of Deep Neural Networks. Over the years, the research community expands mix-up methods into two directions, with extensive efforts to improve saliency-guided procedures but minimal focus on the arbitrary path, leaving the randomization domain unexplored. In this paper, inspired by the superior qualities of each direction over one another, we introduce a novel method that lies at the junction of the two routes. By combining the best elements of randomness and saliency utilization, our method balances speed, simplicity, and accuracy. We name our method R-Mix following the concept of "Random Mix-up". We demonstrate its effectiveness in generalization, weakly supervised object localization, calibration, and robustness to adversarial attacks. Finally, in order to address the question of whether there exists a better decision protocol, we train a Reinforcement Learning agent that decides the mix-up policies based on the classifier's performance, reducing dependency on human-designed objectives and hyperparameter tuning. Extensive experiments further show that the agent is capable of performing at the cutting-edge level, laying the foundation for a fully automatic mix-up. Our code is released at [https://github.com/minhlong94/Random-Mixup].
translated by 谷歌翻译
As the COVID-19 pandemic puts pressure on healthcare systems worldwide, the computed tomography image based AI diagnostic system has become a sustainable solution for early diagnosis. However, the model-wise vulnerability under adversarial perturbation hinders its deployment in practical situation. The existing adversarial training strategies are difficult to generalized into medical imaging field challenged by complex medical texture features. To overcome this challenge, we propose a Contour Attention Preserving (CAP) method based on lung cavity edge extraction. The contour prior features are injected to attention layer via a parameter regularization and we optimize the robust empirical risk with hybrid distance metric. We then introduce a new cross-nation CT scan dataset to evaluate the generalization capability of the adversarial robustness under distribution shift. Experimental results indicate that the proposed method achieves state-of-the-art performance in multiple adversarial defense and generalization tasks. The code and dataset are available at https://github.com/Quinn777/CAP.
translated by 谷歌翻译
我们提出了一种多阶段的多代码书(MSMC)方法,用于高性能神经TTS合成。基于矢量定量的,变异的自动编码器(VQ-VAE)的特征分析仪用于编码语音训练数据的MEL频谱图,通过在多个阶段中逐渐减小为MSMC表示(MSMCR),并使用不同的时间分辨率进行逐步降低,并使用多个VQ对其进行量化它们代码书分别。通过最大程度地减少重建均方根误差(MSE)和“三重态损耗”的合并损失,对多阶段预测指标进行了训练,以逐步将输入文本序列映射到MSMCR。在合成中,神经声码器将预测的MSMCR转换为最终的语音波形。拟议的方法是由女演讲者通过16小时的英语TTS数据库进行了训练和测试。拟议的TTS的MOS得分为4.41,其表现优于基线,MOS为3.62。拟议的TTS的紧凑版本仍然可以保留高MOS得分。消融研究表明,多个阶段和多个代码手册都可以有效地实现高TTS性能。
translated by 谷歌翻译
深度神经网络(DNN)模型越来越多地使用新的复制测试数据集进行评估,这些数据集经过精心创建,类似于较旧的和流行的基准数据集。但是,与期望相反,DNN分类模型在这些复制测试数据集上的准确性上表现出显着,一致且在很大程度上无法解释的降解。虽然流行的评估方法是通过利用各自测试数据集中可用的所有数据点来评估模型的准确性,但我们认为这样做会阻碍我们充分捕获DNN模型的行为以及对其准确性的现实期望。因此,我们提出了一种原则性评估协议,该协议适用于在多个测试数据集上对DNN模型的准确性进行比较研究,利用可以使用不同标准(包括与不确定性相关信息)选择的数据点子集进行的子集。通过使用此新评估协议,我们确定了(1)CIFAR-10和Imagenet数据集上$ 564 $ DNN型号的准确性,以及(2)其复制数据集。我们的实验结果表明,已观察到的基准数据集及其复制之间观察到的准确性降解始终较低(即模型在复制测试数据集上的性能更好),而不是在已发表的作品中报告的准确性退化,并依靠这些已发表的作品依赖于常规评估。不利用不确定性相关信息的方法。
translated by 谷歌翻译
计算机辅助X射线肺炎病变识别对于准确诊断肺炎很重要。随着深度学习的出现,肺炎的识别准确性得到了极大的改善,但是由于胸部X射线的模糊外观,仍然存在一些挑战。在本文中,我们提出了一个深度学习框架,称为基于注意力的对比度学习,用于治疗X射线肺炎病变识别(表示为深肺炎)。我们采用自我监督的对比学习策略来预先培训模型,而无需使用额外的肺炎数据来完全挖掘有限的可用数据集。为了利用医生精心贴出的病变区域的位置信息,我们提出了面具引导的硬注意策略和特征学习,并具有对比度调节策略,这些策略分别应用于注意力图和提取功能,以指导模型以指导模型将更多注意力集中在病变区域,其中包含更多歧视性特征以改善识别性能。此外,我们采用班级平衡的损失,而不是传统的跨凝性作为分类的损失函数,以解决数据集中不同类别肺炎之间严重类失衡的问题。实验结果表明,我们提出的框架可以用作可靠的计算机辅助肺炎诊断系统,以帮助医生更好地诊断肺炎病例。
translated by 谷歌翻译
许多最近的神经模型在机器阅读理解中表现出了显着的经验结果,但有时证据表明,有时这些模型利用数据集偏见来预测和无法推广样本外数据。尽管已经提出了许多其他方法来从计算角度(例如新体系结构或培训程序)解决此问题,但我们认为一种使研究人员发现偏见并在较早阶段调整数据或模型的方法将是有益的。因此,我们介绍了MRCLEN,该工具包检测到用户训练完整模型之前是否存在偏见。为了方便引入工具包,我们还提供了MRC中常见偏见的分类。
translated by 谷歌翻译
从理论上讲,通过引入蛋白质3D结构信息,可以改善化合物蛋白结合亲和力(CPA)中计算模型的准确性。但是,由于缺乏有效编码信息蛋白质特征的有效方法,这些模型中的大多数仍然存在低精度。主要的挑战是如何结合多模式信息,例如蛋白质的残基序列,残基原子坐标和扭转角。为了解决这个问题,我们开发了快速的进化关注和彻底的图形神经网络(featnn),以促进蛋白质3D结构信息的应用以预测CPA。具体而言,我们建立了一种新型的端到端结构,以共同嵌入扭转矩阵,离散距离矩阵以及蛋白质和提取具有深图卷积层的复合特征的序列信息。此外,引入了一种新的成对映射注意机制,以全面了解蛋白质和化合物之间的潜在相互作用信息。在CPA预测中,R2系数升高约21.33%,在CPA预测中的各种最新基准都大大优于各种最新基线。因此,壮举为高度准确的CPA预测提供了出色的方法,并促进了候选药物的高通量虚拟筛查。
translated by 谷歌翻译